Обнаружение вредоносного домена на основе естественного языка с использованием машинного обучения и глубокого обучения
Аннотация:
В настоящие время количество кибератак постоянно увеличивается, и борьба с ними остается сложной задачей. Киберпреступники используют различные стратегии для манипулирования и использования уязвимостей своих целей. Вредоносные URL-адреса — одна из таких стратегий, которая ориентирована на большие группы пользователей, находящихся в социальных сетях. В Интернете для привлечения пользователей преступники маскируют URL-адреса под безопасные. Преднамеренное или непреднамеренное использование таких URL-адресов подвергает опасности пользователя или организацию в киберпространстве и открывает путь для дальнейших атак. Системы, которые используют алгоритмы на основе правил или машинного обучения для поиска вредоносных URL-адресов, обычно полагаются на применение специальных функционалов. Это требует знания предметной области и опыта. Вместе с тем даже при извлечении опасных признаков из набора данных их потенциал может быть применен не полностью. В работе предложено использовать обработку естественного языка (Natural Language Processing, NLP) для векторизации слов в URL-адресах, а также моделей машинного и глубокого обучения для их классификации. Техника векторизации при обработке естественного языка позволяет снизить усилия по разработке признаков и максимально использует набор данных. Для эксперимента применены два набора данных, а для векторизации текста URL — три метода. Результаты эксперимента показали, что модели дерева решений (Decision Tree, DT) и метода случайного леса (Random Forest, RF) достигли точностей 99,4 % и 99,3 % с использованием машинного обучения с векторизаторами Count и Hash. Модели DT и метода опорных векторов (Support Vector Machine, SVM) обеспечили высокую точность 99,5 % с использованием меры Term Frequency-Inverse Document Frequency (TF-IDF). В модели глубокого обучения нейронной сети (Artificial Neural Network, ANN) получена точность 99,2 %, что выше в сравнении с использованием сверточной нейронной сети (Convolutional Neural Network, CNN).
Ключевые слова:
Постоянный URL
Статьи в номере
- Полимерная композиция с фенантренхиноном для записи рельефных голографических решеток
- Современные методы математического моделирования в биомедицинских исследованиях
- Анализ фазовых изображений, полученных при использовании голографической системы регистрации на основе эффекта геометрической фазы и поляризационной камеры
- Система цветоделения на основе цветового треугольника для колориметрических исследований в микроскопии
- Концепция регистрации изображений с использованием двухэлементного активного оптико-электронного комплекса
- Вариационная задача адаптивного оптимального управления. Теоретический и прикладной компьютерный анализ
- Краткий обзор развития теорий робастности, грубости и бифуркаций динамических систем
- Решение задачи достижимости в графе с заданными ограничениями в виде многокомпонентной контекстно-свободной грамматики с использованием умножения матриц
- Предсказание результатов 16-факторного теста Р. Кеттелла на основе анализа текстовых постов пользователей социальной сети
- Методика управления компонентами распределительной электроэнергетической системы при обеспечении качества потребляемой электроэнергии
- Голосовая система оценки ответов для учащихся с ограниченными физическими возможностями, использующих обработку естественного языка и машинное обучение
- Гибридный алгоритм JAYA для планирования рабочих процессов в облаке
- Информационная модель продолжительности покупки товаров первой необходимости
- Разработка технологии интерактивной мобильной поддержки пациентов с хроническими заболеваниями
- Выделение ролей в сетях общественного транспорта с атрибутами узлов: описание модели
- Обзор систем обнаружения сетевых вторжений, основанных на подходах глубокого обучения
- Мониторинг состояния здоровья населения по возрастным группам
- Модель аналитики энергопотребления на основе интеллектуальной оболочки Game Optimization для данных интеллектуального учета
- Метод активного демпфирования напряжения с отрицательной обратной связью по току звена постоянного тока в электрических и гибридных электрических трансмиссиях
- Сравнительный анализ методов управления вентильно-индукторной электрической машиной
- Газовая динамика стационарных сверхзвуковых газовых струй с инертными частицами при их истечении в среду с низким давлением
- Смешанные формы свободных колебаний прямоугольной CFCF-пластины
- Моделирование тепло-гидродинамических процессов в испарителях низкотемпературных систем с внутриканальным кипением хладагентов
- Высокопроизводительное моделирование напряженно-деформированного состояния тонкостенных оболочечных конструкций с использованием глубокого обучения
- Валидация автоматных спецификаций